Thèse soutenue

Reconnaissance automatique des noms propres : application à la classification automatique de textes journalistiques

FR  |  
EN
Auteur / Autrice : Nathalie Friburger
Direction : Denis Maurel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2002
Etablissement(s) : Tours

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Dans les textes journalistiques, les noms propres sont très importants pour une compréhension précise du sens des textes, mais ils sont très peu représentés dans les ressources lexicales disponibles. Le travail réalisé ici cherche à automatiser leur extraction et leur catégorisation. Nous avons implanté le système CasSys qui permet l'utilisation de cascade de transducteurs et peut ainsi réaliser de l'analyse syntaxique d'un texte ou de l'extraction d'information. Le système d'extraction de noms propres crée, extracNP, utilise casSys ; les phénomènes d'ambigui͏̈tés, de segmentation et de catégorisation des noms propres sont ainsi gérés par la cascade. Par cette méthode, nous avons obtenu une précision de 94% avec un rappel de plus de 93%. Puis, nous avons montré que les noms propres sont porteurs d'une information qui les rend particulièrement intéressants pour obtenir une classification de qualité.